I. Ozkan
Bahar 2025
(k-fold) Çapraz Doğrulama
Tekrarlanmış Çapraz Doğrulama
Birini-Dışarda-Bırak (Leave-One-Out) Çapraz Doğrulama
Örnekleme (Bootstrap) ve Bootstrapping
Veri kümesi iki alt kümeye ayrılır. Bunlara eğitim verisi and test verisi (validation set, hold-out set) (sıklıkla da doğrulama veya tutma-hold out- yaklaşımı)
Eğitim verisi, modeli oluşturmak (parametre tahminleri) için kullanılır; test verisi ise modelin performansını değerlendirmek için (modele yeni olan gözlemler kullanılarak) kullanılır
Öğrenme verileri ile oluşan hatalar, test verileri ile elde edilen hatalardan genellikle farklıdır. Test verileri ile elde edilen hatalar genellikle çok daha yüksektir
Test hata oranını daha iyi tahmin edebilmek için, yaklaşımlardan biri; eğitim gözlemlerinin bir alt kümesini modelin oluşturulma sürecinden ayırmak ve ardından istatistiksel öğrenme yöntemini bu ayrılan gözlemler üzerinde uygulamaktır
Eğer bağımlı değişken ile bağımsız değişkenler arasında doğrusal olmayan bir ilişki varsa, polinom regresyonu kullanılabilir. Bu durumda polinom derecesinin seçimi önemlidir
Tahmin edilen katsayılar p-değerleri ile değerlendirilebilir
Kalibrasyon, model seçimi ve katsayıların değerlendirilmesi doğrulama veri seti kullanılarak yapılabilir (Model Değerlendirme)
Örnek: Açıklama için ISLR paketindeki auto veri seti kullanılmıştır
mpg | cylinders | displacement | horsepower | weight | acceleration | year | origin | name |
---|---|---|---|---|---|---|---|---|
18 | 8 | 307 | 130 | 3504 | 12.0 | 70 | 1 | chevrolet chevelle malibu |
15 | 8 | 350 | 165 | 3693 | 11.5 | 70 | 1 | buick skylark 320 |
18 | 8 | 318 | 150 | 3436 | 11.0 | 70 | 1 | plymouth satellite |
16 | 8 | 304 | 150 | 3433 | 12.0 | 70 | 1 | amc rebel sst |
17 | 8 | 302 | 140 | 3449 | 10.5 | 70 | 1 | ford torino |
15 | 8 | 429 | 198 | 4341 | 10.0 | 70 | 1 | ford galaxie 500 |
Doğrulama verileri, eğitim ve test verileri rastgele seçilerek elde edilir. Bu örnekte, gözlemlerin %30’u doğrulama için rastgele seçilmiştir
Gösterilen modeller polinom (ortogonal) modellerdir. Doğrusal model şu şekildedir: \(mpg=\beta_0+\beta_1 \cdot horsepower+\varepsilon\)
Hem eğitim hem de test veri kümeleri için \(MSE\)’deki değişimi değerlendirin
Önceki örneği çok kez tekrarlayabiliriz. Örneğin, aşağıdaki grafik bu işlemin 10 kez tekrarlandığı durumu göstermektedir
Farklı polinom dereceleri kullanılarak rastgele seçilen her bir eğitim ve test veri kümeleri için elde edilen MSE değerleri gösterilmiştir
Hem önceki slaytta verilen grafik hem de aşağıda verilen tabloya bakıldığında, test verilerine ait MSE değerleri ikinci dereceden bir polinom kullanılmasını önermektedir; çünkü polinom derecesinin artırılması, rastgele ayrılmış tüm örneklemler için önemli ölçüde bir performans artışı sağlamamaktadır
Modeli oluşturmak için rastgele seçilen eğitim verileri kullanıldığından, Test verilerine ait MSE değerleri genellikle büyük tahmin edilmektedir (bu durum önceki slayttaki grafikte görülmektedir)
Polinom Derecesi | Min. Eğitim MSE | Min. Test MSE |
---|---|---|
1 | 22.291 | 20.416 |
2 | 17.493 | 16.767 |
3 | 17.350 | 16.701 |
4 | 17.273 | 16.674 |
5 | 16.817 | 16.025 |
6 | 16.674 | 15.710 |
7 | 16.529 | 15.381 |
8 | 16.529 | 15.420 |
9 | 16.522 | 15.667 |
10 | 16.517 | 16.088 |
Doğrulama verileri yaklaşımına benzer, ancak burada doğrulama verileri yalnızca bir gözlem içerir
Her bir test gözlemi için, \((x_j, y_j), : j = 1, 2, \dots, n\) geri kalan \(n-1\) gözlem eğitim seti olarak kullanılır, ardından \(\hat y_j\) tahmin edilir ve \(MSE_j = (y_j - \hat y_j)^2\) hesaplanır
Test hatası MSE’lerinin ortalaması, LOOCV (Leave-One-Out Cross-Validation) tahminini verir
\(CV_{(n)} = \frac{1}{n}\sum^n_{i=1}MSE_i\)
Doğrusal model için LOOCV tahmini,
\(mpg_i=\beta_0+\beta_1horsepower_i+\varepsilon_i\) için: 24.232
LOOCV yaklaşımı, büyük veri setleri için hesaplama açısından oldukça maliyetlidir
Alternatif bir yöntem olarak k-Katlı Çapraz Doğrulama kullanılabilir
Veri rastgele, eşit boyutlu k gruba (fold) ayırılır
İlk grup doğrulama verileri olarak kullanılır, kalan verilerle model kurulur. Doğrulama verileri ile \(MSE_1\) değeri hesaplanır
Bu adım kalan k-1 grup için tekrar edilir ve \(MSE_j, : j = 2, \dots, k\) değerleri hesaplanır
Böylece, k-katlı Çapraz Doğrulama tahmini elde edilir.
\(CV_{(k)} = \frac{1}{k}\sum^k_{j=1}MSE_j\)
LOOCV, k-katlı yaklaşımın özel bir durumudur; burada k, gözlem sayısına eşittir
Beş - on kat (fold) kullanılması genel olarak iyi tahminler üretir
Örnekleme (Bootstrapping), belirli bir tahmin ediciye (estimator) ilişkin belirsizliği niceliksel olarak değerlendirmek için kullanılan oldukça güçlü bir istatistiksel araçtır
Bu yöntem, veri kümesinden tekrar tekrar ve yerine geri koymalı (with replacement) bağımsız örneklemler çekmeyi içerir
Aşağıdaki grafikte, üç gözlemli bir veri kümesi (n=3) ve bu kümeden çekilen örneklemler gösterilmektedir
Her bir bootstrap veri kümeleri, \(Z^{*1}, Z^{*2}, \dots, Z^{B}\) şeklinde üç gözlem (n=3) içerir ve ilgilendiğimiz tahmin edici istatistiği (örneğin \(\hat \alpha\)) hesaplamak için kullanılır
Tüm bootstrap veri kümeleri, \(\hat\alpha^{*1}, \hat\alpha^{*2}, \dots, \hat\alpha^{*B}\) değerlerinin standart hatasını hesaplamak için kullanılır
\(SE_B(\hat\alpha) = \sqrt{\frac{1}{B-1}\sum^B_{r=1}\bigg(\hat\alpha^{*r}-\frac{1}{B}\sum^B_{r'=1}\hat\alpha^{*r}\bigg)^2}\)
“Diyelim ki sabit bir miktar para ile, getirileri sırasıyla \(X\) ve \(Y\) olan iki finansal varlığa yatırım yapmak istiyoruz; burada \(X\) ve \(Y\) rastgele değişkenlerdir. Paramızın \(\alpha\) oranındaki kısmını \(X\)’e, kalan \((1 - \alpha)\) kısmını ise \(Y\)’ye yatıracağız.”
Varyans risk ölçütü olarak kullanıldığından, amacımız varyansı minimize etmek yani \(Var(\alpha X + (1 - \alpha) Y)\) ifadesini en aza indirmektir. Riski minimize eden tahmini \(\hat \alpha\) değeri ise:
\(\hat\alpha = \frac{\hat\sigma^2_Y - \hat\sigma_{XY}}{\hat\sigma^2_X +\hat\sigma^2_Y-2\hat\sigma_{XY}}\)
ISLR
paketindeki Portfolio
verisi için
tahmin edilen \(\hat \alpha\) değeri
0.5758
10 Örnekleme (Bootstrapped) için tahmin edilen \(\hat \alpha\) değerleri aşağıda gösterilmektedir
Bootstrap | Alpha |
---|---|
1 | 0.4483 |
2 | 0.5609 |
3 | 0.5053 |
4 | 0.6836 |
5 | 0.6108 |
6 | 0.5820 |
7 | 0.5013 |
8 | 0.5379 |
9 | 0.6151 |
10 | 0.5374 |
Ortalama tahmin: \(\hat \alpha=0.5583\) olarak bulunmaktadır
1000 bootstrap örneklemi ile elde edilen \(\hat \alpha\) tahmin değerlerinin dağılımı ise
ORDINARY NONPARAMETRIC BOOTSTRAP
Call:
boot(data = Portfolio, statistic = statistic, R = 1000)
Bootstrap Statistics :
original bias std. error
t1* 0.5758321 0.004719558 0.09020046
AER
paketindeki ücret ve eğitim (wage and education)
verilerini kullanarak doğrusal regresyon modeli oluşturabiliriz
Veri, \(wage, education, experience, ethnicity\) değişkenlerine sahip olduğundan temel modeli şu şekilde kurgulayabiliriz:
\(ln(wage)=\beta_0 + \beta_1 \: experience+ \beta_2 \: experience^2 + \beta_3 \: education + \beta_4 \: ethnicity + \varepsilon\)
Call:
lm(formula = log(wage) ~ experience + I(experience^2) + education +
ethnicity, data = CPS1988)
Residuals:
Min 1Q Median 3Q Max
-2.9428 -0.3162 0.0580 0.3756 4.3830
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 4.321e+00 1.917e-02 225.38 <2e-16 ***
experience 7.747e-02 8.800e-04 88.03 <2e-16 ***
I(experience^2) -1.316e-03 1.899e-05 -69.31 <2e-16 ***
education 8.567e-02 1.272e-03 67.34 <2e-16 ***
ethnicityafam -2.434e-01 1.292e-02 -18.84 <2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.5839 on 28150 degrees of freedom
Multiple R-squared: 0.3347, Adjusted R-squared: 0.3346
F-statistic: 3541 on 4 and 28150 DF, p-value: < 2.2e-16
Değişken | 2.5% | 97.5% |
---|---|---|
(Intercept) | 4.28381 | 4.35898 |
experience | 0.07575 | 0.07920 |
I(experience^2) | -0.00135 | -0.00128 |
education | 0.08318 | 0.08817 |
ethnicityafam | -0.26868 | -0.21804 |
Değişken | 2.5% | 97.5% |
---|---|---|
(Intercept) | 4.28110 | 4.36191 |
experience | 0.07548 | 0.07948 |
I(experience^2) | -0.00136 | -0.00127 |
education | 0.08297 | 0.08836 |
ethnicityafam | -0.26951 | -0.21739 |